In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
We conduct a systematic study of backdoor vulnerabilities in normally trained Deep Learning models. They are as dangerous as backdoors injected by data poisoning because both can be equally exploited. We leverage 20 different types of injected backdoor attacks in the literature as the guidance and study their correspondences in normally trained models, which we call natural backdoor vulnerabilities. We find that natural backdoors are widely existing, with most injected backdoor attacks having natural correspondences. We categorize these natural backdoors and propose a general detection framework. It finds 315 natural backdoors in the 56 normally trained models downloaded from the Internet, covering all the different categories, while existing scanners designed for injected backdoors can at most detect 65 backdoors. We also study the root causes and defense of natural backdoors.
translated by 谷歌翻译
Extremely large-scale massive MIMO (XL-MIMO) has been reviewed as a promising technology for future wireless communications. The deployment of XL-MIMO, especially at high-frequency bands, leads to users being located in the near-field region instead of the conventional far-field. This letter proposes efficient model-based deep learning algorithms for estimating the near-field wireless channel of XL-MIMO communications. In particular, we first formulate the XL-MIMO near-field channel estimation task as a compressed sensing problem using the spatial gridding-based sparsifying dictionary, and then solve the resulting problem by applying the Learning Iterative Shrinkage and Thresholding Algorithm (LISTA). Due to the near-field characteristic, the spatial gridding-based sparsifying dictionary may result in low channel estimation accuracy and a heavy computational burden. To address this issue, we further propose a new sparsifying dictionary learning-LISTA (SDL-LISTA) algorithm that formulates the sparsifying dictionary as a neural network layer and embeds it into LISTA neural network. The numerical results show that our proposed algorithms outperform non-learning benchmark schemes, and SDL-LISTA achieves better performance than LISTA with ten times atoms reduction.
translated by 谷歌翻译
作为最成功的AI驱动应用程序之一,推荐系统的目的是通过在我们生活的许多方面提供个性化建议,以有效而有效的方式帮助人们做出适当的决定,尤其是针对各种面向人类的在线服务,例如E-商务平台和社交媒体网站。在过去的几十年中,推荐系统的快速发展通过创造经济价值,节省时间和精力以及促进社会利益,从而使人类受益匪浅。但是,最近的研究发现,数据驱动的推荐系统可能会对用户和社会构成严重威胁,例如传播虚假新闻以操纵社交媒体网站中的公众舆论,扩大不公平为代表性不足的团体或在工作匹配服务中的个人,或从建议结果中推断隐私信息。因此,系统的可信赖性一直吸引着各个方面的关注,以减轻推荐系统引起的负面影响,以增强公众对推荐系统技术的信任。在这项调查中,我们提供了可信赖的推荐系统(TREC)的全面概述,特别关注六个最重要的方面;即安全与鲁棒性,非歧视与公平,解释性,隐私,环境福祉以及问责制和可审计性。对于每个方面,我们总结了最近的相关技术,并讨论了潜在的研究方向,以帮助未来实现值得信赖的推荐系统。
translated by 谷歌翻译
毫米波(mmwave)雷达在不利的环境中起作用,例如在烟,雨,雪,照明等不良环境中起作用。先前的工作探索了从嘈杂且稀疏的MMWAVE雷达信号中重建3D骨骼或网格的可能性。但是,目前尚不清楚我们如何准确地从跨场景的MMWave信号重建3D主体,以及与摄像机相比的性能,当单独使用MMWave雷达或将它们与摄像机结合时,这是需要考虑的重要方面。为了回答这些问题,首先设计并构建了多个传感器,以收集大规模数据集。该数据集由在不同场景中的同步和校准的MMWave雷达点云和RGB(D)图像组成,以及在场景中人类的骨架/网格注释。使用此数据集,我们使用来自不同传感器的输入来训练最先进的方法,并在各种情况下对其进行测试。结果表明,1)尽管生成点云的噪音和稀疏性,MMWave雷达可以比RGB摄像机获得更好的重建精度,但比深度摄像头还差; 2)MMWave雷达的重建受不利天气条件的影响,而RGB(D)摄像机受到严重影响。此外,对数据集的分析和结果对改善MMWave雷达重建的重建以及来自不同传感器的信号的组合的洞察力。
translated by 谷歌翻译
低光视频增强(LLVE)是许多应用程序,例如拍摄和自动驾驶,是一项重要但艰巨的任务。与单图像低光增强不同,大多数LLVE方法都利用相邻帧的时间信息来恢复颜色并删除目标框架的噪声。但是,这些算法基于多帧对齐和增强的框架,在遇到极端低光或快速运动时可能会产生多帧融合工件。在本文中,受到低潜伏期和高动态事件范围的启发,我们使用来自多个帧的合成事件来指导低光视频的增强和恢复。我们的方法包含三个阶段:1)事件合成和增强,2)事件和图像融合,以及3)低光增强。在此框架中,我们分别为第二阶段和第三阶段设计了两个新型模块(事件图像融合变换和事件引导的双分支)。广泛的实验表明,我们的方法在合成数据集和真实LLVE数据集上都优于现有的低光视频或单个图像增强方法。
translated by 谷歌翻译
尽管视觉变压器(VIT)表现出令人印象深刻的表示学习能力,但我们从经验上发现,它们不能很好地将其概括为具有以前的域泛化算法的看不见的域。在本文中,我们提出了一种基于迅速学习的新方法,以嵌入域中的源域的知识提示目标域预测。具体而言,在来自相应的源域中的VIT输入令牌之前先进行域提示。每个域提示都可以有效地学习特定于领域的知识,因为仅针对一个域进行了优化。同时,我们训练一个及时的适配器,根据学习的源域提示为每个输入图像生成适当的提示。在测试时,提示适配器生成的改编提示可以利用室外图像和源域的特征之间的相似性,以正确整合源域知识。广泛的实验是在四个基准数据集上进行的。我们的方法在平均准确性方面提高了1.4%,这是使用VIT主链改善最先进算法的3.5倍。
translated by 谷歌翻译
可区分的架构搜索(飞镖)大大促进了NAS技术的发展,因为其搜索效率很高,但遭受了性能崩溃的影响。在本文中,我们努力从两个方面减轻飞镖的性能崩溃问题。首先,我们研究了飞镖中超级网的表达能力,然后仅使用训练batchnorm来得出新的飞镖范式设置。其次,从理论上讲,随机特征稀释了跳过连接在超网优化中的辅助连接作用,并使搜索算法专注于更公平的操作选择,从而解决了性能崩溃问题。我们具有随机功能的实例化飞镖和PC-Darts,分别为每个命名的RF-Darts和RF-PCDART构建一个改进的版本。实验结果表明,RF-darts在CIFAR-10上获得\ TextBf {94.36 \%}测试精度(这是NAS Bench-201的最接近最佳结果),并实现了最新的最新最先进的TOP-1从CIFAR-10传输时,ImageNet上\ TextBf {24.0 \%}的测试错误。此外,RF-DARTS在三个数据集(CIFAR-10,CIFAR-100和SVHN)和四个搜索空间(S1-S4)上进行稳健性能。此外,RF-PCDARTS在Imagenet上取得了更好的结果,即\ textbf {23.9 \%} top-1和\ textbf {7.1 \%} top-5 top-5测试错误,超越了代表性的方法,例如单路径,训练免费, ,直接在Imagenet上搜索部分通道范例。
translated by 谷歌翻译
创伤性脑损伤(TBI)患者的脑网络分析对于其意识水平评估和预后评估至关重要,这需要分割某些意识相关的大脑区域。但是,由于很难收集TBI患者的手动注释的MR扫描,因此很难构建TBI分割模型。数据增强技术可用于缓解数据稀缺问题。但是,常规数据增强策略(例如空间和强度转化)无法模仿创伤性大脑中的变形和病变,这限制了后续分割任务的性能。为了解决这些问题,我们提出了一种名为TBIGA的新型医学图像授课模型,以通过配对的脑标签图合成TBI MR扫描。我们的TBIGAN方法的主要优势在于,它可以同时生成TBI图像和相应的标签映射,这在以前的医学图像的先前涂上方法中尚未实现。我们首先按照粗到细节的方式在边缘信息的指导下生成成分的图像,然后将合成强度图像用作标签上填充的先验。此外,我们引入了基于注册的模板增强管道,以增加合成图像对的多样性并增强数据增强能力。实验结果表明,提出的TBIGAN方法可以产生具有高质量和有效标签图的足够合成的TBI图像,这可以大大改善与替代方案相比的2D和3D创伤性脑部分割性能。
translated by 谷歌翻译
在本文中,我们制定了一种简单而有效的筛选策略,以提高涉及noncovex $ \ ell_ {q,p} $正则化的结构化优化方面的计算效率。基于迭代重新加权的$ \ ell_1 $(irl1)框架,所提出的筛选规则就像一个预处理模块一样工作,该模块可能在启动子问题求解器之前可能会删除不活动的组,从而减少总计计算时间。这主要是通过在每次迭代过程中启发双重子问题信息来实现的。此外,我们证明我们的筛选规则可以消除IRL1方法有限数量的迭代中的所有不活动变量。数值实验说明了与几种最新算法相比,我们的筛选规则策略的效率。
translated by 谷歌翻译